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Адаптація акустичних моделей фонем до голосу 
диктора для пофонемного розпізнавання 
ізольованих слів української мови 


У статті розглядаються проблеми адаптації моделей фонем до голосу диктора для пофонемного розпізнавання 
ізольованих слів української мови. Описується метод адаптації під назвою «лінійна регресія максимальної 
правдоподібності» (МІЛА). У рамках цього методу шляхом оптимізації значення критерію розпізнавання 
отримуються матриці лінійних перетворень, за якими адаптуються акустичні моделі фонем. Наводяться 
результати експериментальних досліджень розпізнавання мовлення адаптованої системи. Аналізуються дані 
розпізнавання адаптованих моделей у залежності від кількості слів в адаптаційній вибірці. 


Вступ 


Пофонемне розпізнавання мовленнєвого сигналу передбачає формування усно- 
мовного паспорта диктора, що включає акустичні моделі фонем | 1|. Оцінка параметрів 
моделей фонем проводиться за навчальною вибіркою, яка повина містити все фонемне 
ромаїття мови. Досвід формування таких вибірок показав, що їх обсяги повинні бути 
настільки великими, що диктору необхідно витратити багато годин для запису мов- 
лення, щоб досягти прийнятної надійності при пофонемному розпізнаванні ізольованих 
слів з великих словників |2|. За таких умов використання технологій розпізнавання 
усної мови суттєво обмежується. Чи можна скоротити обсяг вибірки, потрібної для 
настроювання на голос диктора? Щоб дати ствердну відповідь на це питання, розгля- 
дається ще один клас задач мовленнєвої інформатики: задача адаптації на голос дик- 
тора. Ця задача передбачає попереднє проведення навчання розпізнаванню на голос 
деякого опорного диктора або кооперативу дикторів. Потім здійснюється коригування 
параметрів акустичних моделей фонем для нового диктора на відносно невеликій 
вибірці - адаптаційній. Також адаптація може проводитися 1 до зміни умов розпізна- 
вання, як, наприклад, перехід на інший канал отримання усномовної інформації (ін- 
ший мікрофон, телефонна лінія). 

Метою роботи є дослідити та застосувати до українського мовлення один із най- 
більш поширених підходів до адаптації на голос диктора при пофонемному розпіз- 
наванні окремо вимовлюваних слів. 

У попередніх дослідженнях з адаптації на голос диктора проводилося коригування 
акустичних генеративних моделей цілих слів |3|. На теперішньому етапі ми перехо- 
димо до пофонемного розпізнавання. 


1. Постановка задачі адаптації та шляхи її вирішення 


Нехай маємо оцінені параметри акустичних генеративних моделей фонем на під- 
ставі ітераційних процедур для опорного диктора або для кооперативу дикторів |З, (41. 
Зокрема для кожної з трьох фаз-станів фонеми Ф (рис. 1) нам відомі вектор математич- 
. т . а 5 5 
ного сподівання Й - реявуаранетмі та коваріаційна матриця 2, розмірністю п х п, деп- 
розмірність вектора первинних ознак сигналу. 
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Рисунок І - Генеративна модель фонеми ф з трьома фазама-станами Фі, ф», Фз. Додаткові 
неемітентні стани фо і Фа вводяться для сполучення з іншими моделями фонем. Число 
поруч із дужкою вказує на кількість часових відліків, за які здійснюється перехід 


Припускається, що існує лінійне перетворення, яке переводить початкові вектори 
математичного сподівання у вектори математичного сподівання для нового диктора. 
Ефектом цього перетворення є зсув середніх значень параметрів моделей фонем та 
зміна дисперсій цих параметрів у початковій системі таким чином, що кожний стан у 
системі акустичних моделей фонем може точніше генерувати дані адаптації. 

Лінійне перетворення для середніх значень записується у вигляді: 


Е-ИО, (1) 
де /Є - вектор матсподівання нового диктора, Й/ є матрицею розмірністю п х (п -- 1), 
Є - вектор розширеного матсподівання 


з Знав 02) 


де у/ представляє нев'язку, початкове значення якої фіксоване і дорівнює І. 
У свою чергу, матриця Й/ розкладається на добуток 


МУ-ТЬАЇ, (3) 


деАє матрицею лінійних перетворень розмірністю й х п, а Б представляє вектор ухилу. 

В такій формі перетворення зручніше обчислюється в умовах неперервного роз- 
поділу за нормальним законом. 

Перетворення коваріаційних матриць не досліджувалося, тому його опис про- 
пускаємо. 

Матриці лінійних перетворень отримуються шляхом оптимізації значення крите- 
рію розпізнавання. Одним з таких оптимізаційних алгоритмів є лінійна регресія макси- 
мальної правдоподібності (Махітит Ілкепрооа Ілпеаг Кертеззіоп - МІЛА) |4). Стани 
фонеми автоматично поділяються на певну кількість класів регресії методами вектор- 
ного квантування, а потім для кожного класу регресії оцінюється своя матриця ліній- 
них перетворень за ітераційною процедурою. 

Ця ж процедура використовується і у випадку апроксимації фаз-станів фонем су- 
мішшю нормальних законів - таусіанів. Тоді до класів регресії входять окремі гаусіани. 


2. База даних і знань 


У дослідженнях ми використали україномовний багатодикторний мовленнєвий 
корпус, який містить понад 30 000 реалізацій слів 1 тисячі речень близько 100 дик- 
торів, що мешкають у різних областях України. Реалізації слів зберігають частотні 
пропорції фонем і є фонетично збалансованими, при підборі слів також враховувалися 
їх частотні характеристики |2|. Цей мовленнєвий корпус було створено завдяки гранту 
Президента України для обдарованої молоді, контракт Хо 32 від 30.05.2006 р. 
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Взято до розгляду матеріал з мовленнєвого корпусу, записаний з голосу 62 дик- 
торів. Цю основну вибірку розділено на дві частини. Перша частина (49 дикторів) 
призначена для використання як навчальна вибірка. 

Друга частина вибірки (14 дикторів) має такі властивості: (1) набір з 241 слова, 
вимовлений кожним диктором був один і той же; (2) ніяке слово з другої частини ви- 
бірки не вимовлялося жодним диктором з першої вибірки. Ця частина вибірки призна- 
чена як для адаптації, так і для контролю. Завдяки властивостям другої частини вибірки 
ми маємо змогу проводити адаптацію для різних дикторів на одному 1 тому ж наборі 
слів, а також виключити перетинання слів з контрольної та навчальної вибірок. 

При розпізнаванні використовувався словник обсягом 2170 слів, який включав 
усі слова з основної вибірки. 


3. Експериментальні дослідження адаптації 


Було проведено початкове оцінювання параметрів акустичних моделей фонем у 
мел-кепстральному просторі ознак, доповненому дельта-коефіцієнтами та «прискорен- 
ням», на навчальній вибірці, описаній у попередньому розділі. Кожна фаза-стан фоне- 
ми з алфавіту фонем української мови моделювалася сумішшю нормальних законів, 
кількість яких варіювалася для кожної серії експериментів від 8 до 16. 

Адаптація проводилася для кожного диктора на різній кількості реалізацій слів, 
узятих з другої частини вибірки. При адаптації отримали 13 класів регресії, для кож- 
ного класу було оцінено свою матрицю перетворення. 

Розпізнавання проводилося для кожного диктора окремо на адаптованих для нього 
моделях. Усереднену надійність розпізнавання для всіх 14 дикторів подано на рис. 2 для 
двох серій експериментів. Очевидно, кращі результати показали моделі з 16 гаусіанами. 
Для цих моделей розраховано надійність розпізнавання окремо для кожного диктора. 

Результати, наведені в табл. 1, показують, що після адаптації на голос нового 
диктора надійність розпізнавання в середньому виросла на 3,0390 для адаптаційної ви- 
бірки обсягом у 30 слів, на 3,8290 -- для 60) слів, на 4,649. -- для 100) слів, на 5,990 - для 
150 слів. 
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Рисунок 2 - Усереднена надійність розпізнавання для серій експериментів 
з різною кількістю гаусіанів 
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Висновки 


Експериментально підтверджено, що адаптація на голос диктора є перспектив- 
ною технологією. Користувачеві достатньо вимовити лише декілька десятків слів 
українською мовою, щоб отримати прийнятну надійність розпізнавання великих слов- 
ників. Вперше отримані результати адаптації для ізольованих слів української мови, 
які відповідають рівню європейських досліджень | 31. 

Подальші роботи будуть спрямовані на підвищення якості адапації, зокрема 
шляхом перетворення матриць дисперсії та залучення до розпізнавання оцінки дов- 
жини голосового тракту диктора. Будуть також досліджені інші простори первинних 
ознак сигналу. Планується працювати не лише з ізольованими словами, а й зі злитим 
мовленням, збільшити обсяги словника. 


Таблиця 1 - Надійність розпізнавання (У) для групи нових дикторів до і після 
адаптації на різну кількість слів. Кількість сумішей гаусіанів у моделях фонем - 16 
Кількість слів на 0 (без 
дивній адаптацію адаптації) 30 60 100 150 
1. Анна 93.78 95.74 96.32 95.88 97.43 
2. Богдан 80.50 88.90 89.87 91.06 93.77 
3. Валентина 95.02 95.39 96.13 96.17 94.50 
4. Ганна 91.29 92.28 91.92 92.48 93.04 
5. Дмитро 92.12 95.40 96.60 98.01 97.07 
6. Катерина 79.25 84.90 85.91 88.37 91.57 
7. Олена 90.46 93.23 94.75 95.32 96.70 
8. Олеся 92.53 93.23 94.75 95.32 96.70 
9. Руслан 89.21 92.96 94.48 94.75 94.87 
10. Сергій 95.81 96.55 96.60 97.16 97.43 
11. Слава 89.21 90.93 91.35 92.06 92.68 
12. Тетяна 87.14 91.34 92.64 94.33 97.44 
13. Юрій 89.21 93.70 94.20 96.03 95.60 
14. Юрій 2 92.53 95.94 95.95 96.03 97.07 
В середньому по групі 89.86 92.89 93.68 94.50 95.41 
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М.М. Сажок, Р.А. Селюх, О.А. Юхименко 

Адаптация акустических моделей фонем на голос диктора для пофонемного распознавания 
изолированньгх слов украинского язьтка 

В статье рассматриваются проблемьт адаптации моделей фонем на голос диктора для пофонемного 
распознавания изолированньїх слов украйнского язьїа. Описьтваєтся метод адаптаций под названиєм 
«линейная регрессия максимального правдоподобия» (МІ. К). В рамках зтого метода путем оптимизаций 
значения критерия распознавания получаєм матриць линейньїх преобразований, по которьтм адаптиру- 
ются акустические модели фонем. Приводятся результать зкспериментальньхх исследований распознавания 
речи адаптированной системьі. Анализируются данньгве распознавания адаптированньх моделей на разном 
количестве слов. 


Стаття надійшла до редакції 09.06.2009. 
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